1 Introducción

Hasta el momento hemos estudiado el comportamiento de una variable aleatoria, su distribución, a realizar cálculos de intervalos de confianza y pruebas de hipótesis para los parámetros de valor esperado y varianza. Sin embargo en la practica muchas veces interesa estudiar no una, sino dos variables simultáneamente. Por ejemplo, interesa estudiar el IMC dependiendo de si el paciente presenta o no un antecedente cardiovascular, la severidad de la enfermedad en función del sexo, o como se comporta el peso en función de la edad.

Existen tres tipos de combinaciones posibles, de dos variables, dependiendo de su escala:

  • Cualitativa vs Cualitativa
  • Cualitativa vs Cuantitativa
  • Cuantitativa vs Cuantitativa

El tratamiento de las relaciones entre pares de variables cualitativas, se reduce a la exploración de las probabilidades condicionales, tema visto anteriormente en detalle. Ahondaremos en el estudio de las dos restantes posibilidades y empezaremos por el estudio de las relaciones existentes entre pares de variables cuantitativas. Empezaremos nuestro estudio, enfocándonos en la situación a nivel muestral, después exploraremos el contexto teórico de esto a nivel poblacional.

2 Representación grafica

Empezaremos con un ejemplo. Un biólogo se encuentra estudiando el peso y la edad en una especie de escarabajos estercoleros determinada. Para este estudio el ha medio el peso y la edad en una muestra de 100 escarabajos. A continuación el investigador presenta los resultados de estas mediciones en un grafico de dispersión.
edad vs peso escarabajos

Figura 2.1: edad vs peso escarabajos

Cada punto en la figura 2.1 representa las mediciones de edad y peso para un escarabajo en particular. En este grafico, se puede apreciar que para edades mayores se observan pesos mayores, lo cual tiene sentido pues a medida que los escarabajos envejecen, estos van creciendo en tamaño.

Veamos otro ejemplo. En un hospital, se esta estudiando la densidad mineral osea (BMD por sus siglas en ingles) de 200 mujeres. Se ha medido su BMD a través del score T y se ha registrado su edad, a continuación se presentan los resultados.

edad vs BMD

Figura 2.2: edad vs BMD

Valores del score T bajos se asocian con una baja densidad mineral osea. En este grafico se puede observar que a mayor edad, la BMD disminuye.

Por lo general, el comportamiento de las figuras 2.1 y 2.2 se suele describir como “directamente” o “inversamente” proporcional. Esta descripción aplica para relaciones lineales entre las variables de estudio, pero esto raramente es la norma. A que nos referimos con “comportamientos lineales”? Básicamente, estamos hablando que la relación de las variables de interés puede ser descrita, mas o menos a través de una linea recta (por favor repace los conceptos matemáticos relacionas con funciones lineales en el siguiente enlace

comportamientos lineales

Figura 2.3: comportamientos lineales

Existen otro tipos de patrones diferentes a los lineales en donde las descripciones de “directamente” o “inversamente” proporcional son insuficientes. Retomemos el ejemplo de los escarabajos. Esta ves el investigador a extendido el periodo de estudio y a incluido mas escarabajos con edades mayores en su tabla de datos. A continuación se presentan los datos actualizados

edad vs peso escarabajos

Figura 2.4: edad vs peso escarabajos

Claramente, una linea recta ya no describe de manera adecuada, la relación entre la edad y el peso. Como interpretaría usted los resultados aquí presentados?

Veamos otro ejemplo. En una ips especializada en enfermedades autoinmunes se han registrado los datos de la edad de inicio de la enfermedad y la duración de la misma en un conjunto de pacientes. Los resultados se presentan a continuación:

edad de inicio de la enfermedad vs. duración

Figura 2.5: edad de inicio de la enfermedad vs. duración

Claramente una linea recta no es una descripción adecuada para estos resultados. Como podría explicar usted el comportamiento observado?

Veamos otro ejemplo. En una institución educativa se han seleccionado 150 estudiantes de toda la institución y se les ha medido el peso y se ha registrado su edad. Los resultados se presentan a continuación:

edad vs peso

Figura 2.6: edad vs peso

En este caso una linea recta, o inclusive una curva, no parecen proveer mucha información sobre lo que esta sucediendo. Como podría explicar usted el comportamiento observado?

Terminaremos nuestra exploración de patrones con un ultimo ejemplo. En otra especie de escarabajos el investigador ha realizado el mismo estudio: peso y edad. Los resultados se presentan a continuación:

edad vs peso escarabajos, nueva especie

Figura 2.7: edad vs peso escarabajos, nueva especie

Ademas de una clara tendencia lineal, algo mas esta ocurriendo, algo que en los casos anteriores no habíamos visto antes. Como podría explicar usted el comportamiento observado?

En este punto, debería ser claro que las posibles relaciones existentes entre un par de variables cuantitativas van mas allá de un simple “directamente” o “inversamente” proporcional.

3 Correlación

A continuación estudiaremos la correlación. La correlación es un parámetro poblacional, sin embargo, estudiaremos primero su estimador, la correlación muestral y posteriormente veremos como se comporta el parámetro a nivel poblacional.

Definición

  • La correlación, denotada por la letra griega \(\rho\) (rho), indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables aleatorias.

Veamos como se comportan los datos para diferentes valores para el parámetro de correlación:

datos simulados para diferentes correlaciones

Figura 3.1: datos simulados para diferentes correlaciones

Lo primero que debemos destacar es que la correlación toma valores entre \(-1\) y \(1\). Podría usted describir cual es el efecto del valor de la correlación sobre el comportamiento de las dos variables?

Vemos que el signo de la correlación se asocia con el signo de la pendiente de la recta que mejor describe a los datos. También podemos observar que, a medida que el valor de la correlación se aproxima a 1 (o -1) los puntos tienden a estar cada vez mas próximos a la linea recta, de tal forma que cuando el valor de la correlación es exactamente 1 o -1, todos los puntos caen de manera exacta sobre la linea recta.

La definición de correlación hace énfasis en que la relación evaluada se enfoca en patrones lineales. Veamos algunos ejemplos de datos con relaciones intrínsecamente no lineales:

datos no lineales simulados

Figura 3.2: datos no lineales simulados

En la figura 3.2 todos los datos poseen un valor de correlación de \(0.7\), sin embargo, es claro que las relaciones no se ajustan a un patrón lineal en ningún caso. Aun mas, es posible obtener valores de correlación de \(0\) y aun así existir relaciones no lineales entre las variables

datos no lineales simulados, correlacion de 0

Figura 3.3: datos no lineales simulados, correlacion de 0

Es un error común pensar que un valor de correlación igual a 0 implica automáticamente una falta de relación discernible entre las variables de estudio. Lo cierto es que no es adecuado fiarse del valor de la correlación. Es necesario inspeccionar el diagrama de dispersión para poder confiar en el valor de la correlación.

En conclusión, la correlación es útil e informativa si y solamente si el comportamiento de las variables sigue una función lineal. En caso contrario, la correlación carece de un sentido propio.

4 La correlación poblacional

Hemos visto la correlación y su comportamiento en el ámbito muestral, es hora de estudiar su comportamiento a nivel poblacional, lo cual nos lleva a introducir el concepto de función de densidad de un vector aleatorio. En matemáticas un vector es simplemente un par ordenado de elementos, por ejemplo \((2,5)\). Este par ordenado se ubica en el plano cartesiano como un punto, unas coordenadas \((x,y)\). Ahora este concepto se extiende a variables aleatorias en donde un vector aleatorio es un par ordenado de variables aleatorias \((X,Y)\). Nosotros hemos estudiado el caso de una sola variable aleatoria, ahora los mismos conceptos se extienden para un vector aleatorio y la función de densidad de un vector aleatorio se representa con una superficie en tres dimensiones, como se puede apreciar en la siguiente figura:

función de densidad de un vector aleatorio

Figura 4.1: función de densidad de un vector aleatorio

Ya que este objeto matemático se aloja en un espacio de tres dimensiones, es común usar diferentes técnicas para representarlo en dos dimensiones, nosotros usaremos la representación en curvas de nivel o contornos de nivel. En esta aproximación se dibujan curvas o contornos de puntos en el plano cartesiano que poseen un mismo valor de la función de densidad, dando una idea del comportamiento de la superficie en tres dimensiones (ver figura 4.2).

Representación de una superficie en curvas de nivel

Figura 4.2: Representación de una superficie en curvas de nivel

De igual manera que en el caso de una variable aleatoria, los valores mas probables se encuentran en zonas de alta densidad de probabilidad. Comparece los contornos de nivel, que representan la función de densidad de probabilidad con unos datos obtenidos a través de una muestra (ver figura 4.3).

función de densidad vs datos de la muestra

Figura 4.3: función de densidad vs datos de la muestra

En secciones anteriores habíamos visto que un parámetro controla la forma de la función de densidad. Ahora veremos como se afecta la forma de la función de densidad conjunta de dos variables aleatorias cuando cambia la correlación:

efecto de la correlación en la función de densidad conjunta

Figura 4.4: efecto de la correlación en la función de densidad conjunta

Finalmente, los mismos argumentos sobre el comportamiento lineal de la relación entre las variables aplica también a nivel poblacional. Si la relación entre las variables no es del tipo lineal, la correlación carece de sentido propio, como se aprecia en la figura 4.5

Relación no lineal a nivel poblacional

Figura 4.5: Relación no lineal a nivel poblacional

5 Funciones de densidad marginal y condicional

En este punto queda claro el concepto de función de densidad conjunta para dos variables aleatorias y su representación como una superficie en un espacio de 3 dimensiones y su proyección en 2d a través de contornos de nivel. Ahora discutiremos dos tipos de funciones de densidad asociadas: la función de densidad marginal y la función de densidad condicional

5.1 Función de densidad marginal

Retomemos el ejemplo de la figura 4.3. En ella, tenemos los contornos de nivel de la función de densidad junto con unos datos de una muestra. Con los datos de la muestra se pueden calcular histogramas para las variables \(X\) y \(Y\), como se muestra en la figura 5.1.

Histogramas marginales

Figura 5.1: Histogramas marginales

Como vimos anteriormente, detrás de los histogramas existe una función de densidad poblacional, lo cual nos lleva a concluir que además de la función de densidad conjunta, existen funciones de densidad independientes para la variable \(X\) y la variable \(Y\). Estas funciones de densidad se llaman funciones de densidad marginales.

función de densidad conjunta y funciones de densidad marginales

Figura 5.2: función de densidad conjunta y funciones de densidad marginales

5.2 Función de densidad conjunta

Existe un tercer tipo de función de densidad (ademas de la función de densidad conjunta y las marginales). Estas se denominan funciones de densidad condicional. Para introducirlas, veamos un ejemplo. suponga que conocemos la función de densidad conjunta del peso y la edad para una población determinada. La función de densidad se representa en la figura 5.3. Podría usted deducir cual es el valor esperado de la edad y el valor esperado del peso?

función de densidad conjunta para la edad y el peso

Figura 5.3: función de densidad conjunta para la edad y el peso

Piense ahora en la siguiente pregunta: Cual es la distribución del peso para personas con 30 años de edad?, Cual es la distribución del peso para personas con 20 años de edad? La respuesta se presenta en la figura 5.4

función de densidad condicional del peso para edad de 30 y 20 años

Figura 5.4: función de densidad condicional del peso para edad de 30 y 20 años

En base a la figura 5.4, puede usted decir cual es el valor esperado del peso cuando la edad es de 30 años? cual es el valor esperado del peso cuando la edad es de 20 años?

5.2.1 Notación

Recordemos que las letras mayúsculas denotan variables aleatorias, las cuales prácticamente, denotan funciones de densidad. Hablamos de una variable aleatoria \(X\) y su función de densidad correspondiente \(f(x)\). Ahora si es un vector aleatorio usamos la notación \((X,Y)\) y su función de densidad correspondiente \(f(x,y)\). En este contexto, \(f(x)\) seria la función de densidad marginal de la variable \(X\) descontando la información de la variable \(Y\), de manera similar, \(f(y)\) seria la función de densidad marginal de la variable \(Y\) descontando la información de la variable \(X\).

Finalmente la notación para las funciones de densidad condicionales es la siguiente:

Si hablamos de una variable aleatoria condicional, por ejemplo \(Y\) condicionado a un valor arbitrario \(c\) de la variable aleatoria \(X\) entonces la notación correspondiente es

\[Y|X=c\] Y la función de densidad condicional correspondiente es

\[f(y|x=c)\] En el ejemplo anterior, hablaríamos de la variable aleatoria peso condicionado a edades de 30 y 20 años respectivamente. En notación de variables aleatorias tendríamos

\[Peso|Edad=30, \; Peso|Edad=20\]

Y las funciones de densidad correspondientes tendrían la siguiente notación:

\[f(peso|edad=30), \; f(peso|edad=20)\]

Finalmente. hablaremos del valor esperado condicional, el cual no es mas que el valor esperado de la función de densidad condicional. Si nos fijamos en la figura 5.4, podemos ver que

\[E(Peso|Edad=30)=71 kg \; y \; E(Peso|Edad=20)=58kg\]

Aproximadamente.

5.3 Valor esperado condicional

Una ves comprendido el concepto de funciones de densidad marginal y condicionales, podemos estudiar un poco mas en detalle el valor esperado condicional. Cuando la relación entre las variables es del tipo lineal, resulta que los valores esperados condicionales se encuentran en una linea recta. Esta recta se denomina la recta de regresión. Su estimación sera el tema de la siguiente sección.

Recta de regresión - Valor esperado condicional

Figura 5.5: Recta de regresión - Valor esperado condicional